AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
最近两周的模型竞赛非常热闹:OpenAI 在 11 月 12 日发布 GPT-5.1,引入更强的推理深度与更高效的对话体验;Google 在 11 月 18 日发布 Gemini 3,全面强化多模态理解与复杂推理能力;Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5,模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。
最近 AI 音乐圈的大新闻是一个接一个,但今天这个,简直就是核弹级的!那个让无数人又爱又恨的Suno,和音乐巨头华纳音乐集团(WMG),居然官宣合作了!你没听错,是合作!而且是全球首个大型“正版授权 AI 音乐”合作框架!这可不是小打小闹,这意味着 AI 音乐的“野蛮生长”时代可能要翻篇了。
近期,一支来自美国哈佛大学和美国斯坦福大学等联合团队真的做到了——他们集成 40 余种衰老时钟模型开发了一个名为 ClockBase Agent 的平台,让 AI 在 200 万份人类和小鼠的分子组学数据里“挖宝”,并找出了超过 500 种可能让生物年龄倒退的干预措施。
天下程序员苦看懂老、大项目久矣。
国内领先的 AI 资产管理平台「无破科技」宣布完成数千万元 Pre-A和Pre-A+ 轮融资,分别由险峰长青和苏州国资投资,心流资本FlowCapital担任本轮和长期财务顾问 。融资资金将主要用于AI资产管理智能体的深化研发、产品迭代和市场拓展,真正实现企业资产的搜索、分析、处置的AI化,进一步巩固公司在债务重组与企业资产服务领域的核心竞争力。
快手直播间的 AI 礼物是如何诞生的?
上周末,创业的第二个月,我收到了第一笔客户订单。
从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。
脑机接口(Brain-Computer Interface, BCI)被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景,核心在于高精度的脑信号解码,即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。